今天介紹一下Yolo v3,
首先在v3中使用了darknet-53的架構,架構如下圖:
相比v2的darknet-19,卷積層有53層,全連結層同樣不保留,速度和19相比較慢,但準確率有提升。
然後是yolo v3的架構圖:
黃色部分是darknet-53,然後最後輸出了3種特徵圖,沒有全連結層就代表不會限制輸入圖片尺寸,上圖以256x256為例子。
並且darknet-53中使用的了殘差模型(Resnet),也就是Residual的部分,和v1中提到的方法類似,隨著網路層數的加深,有些特徵可能會變得微弱甚至消失,所以會將前面的特徵圖加入,避免這樣的情況。
v3總共有9個不同大小的Anchor Box,平均分配到3個輸出特徵圖,而預測的東西不變,舉上圖的第一個輸出為例,8x8x255有64格,每格有三個Anchor Box,而每個Anchor Box預測t~x~,t~y~,t~w~,t~h~,t~o~,前4個為預測框的數值,最後1個是置信度,然後預測80個類別,所以結果就是8x8x3(anchor boxes)x(5+80)。
主要和v2不同地方就這些,好水好水:)
資料來源中有更多資訊可以去觀看。
資料來源:https://zhuanlan.zhihu.com/p/76802514